## [1] 113937 81
## 'data.frame': 113937 obs. of 7 variables:
## $ BorrowerRate : num 0.158 0.092 0.275 0.0974 0.2085 ...
## $ ProsperScore : num NA 7 NA 9 4 10 2 4 9 11 ...
## $ EstimatedLoss : num NA 0.0249 NA 0.0249 0.0925 ...
## $ AmountDelinquent : num 472 0 NA 10056 0 ...
## $ TotalProsperLoans : int NA NA NA NA 1 NA NA NA NA NA ...
## $ CreditGrade : Factor w/ 9 levels "","A","AA","B",..: 5 1 8 1 1 1 1 1 1 1 ...
## $ ProsperRating..Alpha.: Factor w/ 8 levels "","A","AA","B",..: 1 2 1 2 6 4 7 5 3 3 ...
## 'data.frame': 113937 obs. of 9 variables:
## $ BorrowerState : Factor w/ 52 levels "","AK","AL","AR",..: 7 7 12 12 25 34 18 6 16 16 ...
## $ Occupation : Factor w/ 68 levels "","Accountant/CPA",..: 37 43 37 52 21 43 50 29 24 24 ...
## $ EmploymentStatus : Factor w/ 9 levels "","Employed",..: 9 2 4 2 2 2 2 2 2 2 ...
## $ IsBorrowerHomeowner : Factor w/ 2 levels "False","True": 2 1 1 2 2 2 1 1 2 2 ...
## $ CurrentDelinquencies : int 2 0 1 4 0 0 0 0 0 0 ...
## $ BankcardUtilization : num 0 0.21 NA 0.04 0.81 0.39 0.72 0.13 0.11 0.11 ...
## $ AvailableBankcardCredit: num 1500 10266 NA 30754 695 ...
## $ DebtToIncomeRatio : num 0.17 0.18 0.06 0.15 0.26 0.36 0.27 0.24 0.25 0.25 ...
## $ StatedMonthlyIncome : num 3083 6125 2083 2875 9583 ...
答:数据较为丰富,暂未创建新变量。
注:数据分布情况显示,BorrowerRate基本上呈正态分布。
## Warning: Removed 8 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
注:分布基本呈正态分布
## Warning: Removed 29084 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
注:通过数值分布图的观察,发现绝大多数贷款额度都在1左右,高额度的贷款逐级减少
## Warning: Removed 91852 rows containing non-finite values (stat_bin).
## Warning: Removed 91852 rows containing non-finite values (stat_bin).
注:分布显示,绝大多数违约金额低于100000元,极少数违约金额高于200000元,最高违约金额约为450000元。
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Transformation introduced infinite values in continuous y-axis
## Warning: Removed 15 rows containing missing values (geom_bar).
注:从未违约的人占绝大多数,比例89818/113837=78.8%
##
## 0
## 89818
注:违约金额平均为6345元,最低1元,最高463881元。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1 246 1067 6345 5061 463881
注:DebtToIncomeRatio趋于正态分布,在0.2左右最大,绝大多数低于0.5
## Warning: Removed 9353 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
注:固定月收入水平趋于正态分布,数值在3500左右最大,绝大多数位于10000以下
## Warning: Removed 327 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
注:大致呈正态分布,信用等级居中的情况(B、C、D)最多,其他等级的数量基本相当,NC等级最少
尚未发现异常分布,也未对原始数据进行更改,但在部分制图中,为了呈现便于观察和分析的图片,将坐标系的范围和刻度进行了调整或者转换。
注:绘图发现,二者呈一定比例关系,为较强的负相关,相关系数为-0.65
## Warning: Removed 29084 rows containing non-finite values (stat_smooth).
## Warning: Removed 29084 rows containing missing values (geom_point).
cor.test(loan$ProsperScore,loan$BorrowerRate)
##
## Pearson's product-moment correlation
##
## data: loan$ProsperScore and loan$BorrowerRate
## t = -248.98, df = 84851, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.6536072 -0.6458311
## sample estimates:
## cor
## -0.6497361
注:此图效果不明显,隐约发现收入越高,贷款额越有偏高的分布情况。
## Warning: Removed 84115 rows containing missing values (geom_point).
注:探究不同国别的人贷款的分布情况,通过观察可以发现,部分国家如CA、FL、GA具有较高的贷款额,而IN、NJ、AL等国别具有较低的贷款额
## Warning: Removed 91852 rows containing missing values (geom_point).
注:本图效果不理想,但仍隐约可以看出,债务收入比越高,其期望的贷款额度趋于越低。
## Warning: Removed 94080 rows containing missing values (geom_point).
注:去掉无信用等级的数据,通过箱线图可以大致比较出不同信用等级对应的贷款利率情况为:AA<A<B<C<D<E<HR
## Warning: Removed 3 rows containing non-finite values (stat_boxplot).
注:从散点图分布上看,二者无明显的线性关系,待进一步计算相关系数验证。
## Warning: Removed 19295 rows containing missing values (geom_point).
## Warning: Transformation introduced infinite values in continuous y-axis
## Warning: Removed 15112 rows containing missing values (geom_point).
注:相关系数0.34,二者之间有较弱的正相关。
cor.test(loan$CurrentDelinquencies,loan$AmountDelinquent)
##
## Pearson's product-moment correlation
##
## data: loan$CurrentDelinquencies and loan$AmountDelinquent
## t = 118.1, df = 106313, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.3352237 0.3458516
## sample estimates:
## cor
## 0.3405485
注:从散点图分布上看,某些职业收入偏高,如:teacher,professional,某些职业收入普遍偏低,如doctor,attorney,某些职业的收入集中在中等水平,如:social worker、laborer
注:通过散点分布图可以看出,信用卡活跃比例BankcardUtilization存在超过1的异常值。且存在非常多不用信用卡的人,倘若去除异常值和不用信用卡的人对应的数据,剩下用信用卡的人贷款利息便与信用卡活跃度比例正相关,呈一定的线性关系。由此可以推测,信用卡活跃度比例高的人,多可能为现金较少,习惯透支信用卡消费的群体,为较高风险的群体,所以其借款便会有相对高的利息。
## Warning: Removed 11229 rows containing missing values (geom_point).
## Warning: Removed 1 rows containing missing values (geom_point).
注:从散点图分布上看,不同的CreditGrade确实与历史违约情况挂钩,按照分布可以看出,违约情况较轻的人,信用等级普遍偏高,即评级多为A,AA,B,C,而违约情况较严重的,尤其违约次数较多的,其信用等级普遍偏低,评级多为D,E,HR
## Warning: Transformation introduced infinite values in continuous y-axis
## Warning: Removed 15101 rows containing missing values (geom_point).
注:本图效果不理想,主要因为Employed状态的数据占大多数,覆盖情况严重。
## Warning: Removed 86478 rows containing missing values (geom_point).
注:此图效果不理想,隐约发现收入越高,贷款额越偏高,但贷款人是否为业主,与贷款总额和收入水平之间,无明显关系。
## Warning: Removed 84117 rows containing missing values (geom_point).
注:去除异常值和不用信用卡的人对应的数据,根据信用等级CreditGrade分面。 从绘图结果观察看,信用卡活跃比例较低,信用等级为AA和A的群体,其借款利率普遍偏低;信用卡活跃比例较高,信用等级为C,D,E和HR的群体,其借款利率普遍偏高。 据此情况推测:习惯透支信用卡消费的群体,为较高风险的群体,所以其借款便会有相对高的利息。
## Warning: Removed 1 rows containing missing values (geom_point).
注:本图原本为之间画散点图,重叠情况严重,不利于观察,即使抽取1000个样本也不太明显。后仅取各节点对应的数据分组的median,进而呈现出较为清晰的层次感。
## $title
## [1] "Scatter points for ProsperScore/BorrowerRate/IncomeRange"
##
## attr(,"class")
## [1] "labels"
## Warning: Removed 21343 rows containing missing values (geom_point).
## Warning: Removed 179 rows containing missing values (geom_point).
## Warning: Removed 21343 rows containing non-finite values (stat_summary).
答:通过观察贷款利率、贷款额、信用评级、收入水平等特性之间的关系,发现存在具有相互促进的特性。
答:存在,比如收入水平与贷款利率之间存在联系,收入水平越高,贷款利率趋于越低。
答:未创建任何模型
## Warning: Removed 8 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).
数据分布情况显示,BorrowerRate基本上呈正态分布,其大多数数据落在0.05-0.35之间,其中在0.32处有大量数量集中,推测0.32或为常规贷款利息率。
## Warning: Removed 29084 rows containing non-finite values (stat_smooth).
## Warning: Removed 29084 rows containing missing values (geom_point).
## Warning: Removed 29084 rows containing non-finite values (stat_summary).
## Warning: Removed 29084 rows containing non-finite values (stat_smooth).
通过ProsperScore与BorrowerRate之间的关系散点图,发现两者呈负相关,即随着ProsperScore的升高,贷款利息BorrowerRate有逐渐降低的趋势。 进一步取各BorrowerRate的中位数画图,发现其负相关特征更为明显。 由于ProsperScore表示借款者的风险分等级,从上图可以推测,风险分越高,表示借款人的综合评估越优质,还款违约的可能性越小,所以其借款的利息越低。
## Warning: Removed 21343 rows containing missing values (geom_point).
## Warning: Removed 179 rows containing missing values (geom_point).
## Warning: Removed 21343 rows containing non-finite values (stat_summary).
本图首先去掉了Not displayed的数据,并最初为3个变量之间画散点图,发现重叠情况严重,不利于观察分析。 之后抽取1000个数据样本画散点图,发现效果仍不理想。 为了获得各后仅取各IncomeRange的总体统计数据比较,将3个变量画箱线图。并且对各IncomeRange数据节点对应的median画散点图,便于综合比较。
通过观察分析,可以得出以下结论: 1,风险值ProsperScore越高,则贷款利息趋于越低; 2,总体趋势上,收入等级IncomeRange越高,贷款利息越趋于较低水平,相反,若收入为0或者未就业,则贷款利息趋于最高。
1,在本数据探索分析中,基本没有被某些难点长时间卡住,仅在绘制多变量分析图时,经过了较长时间的绘图过程,才绘制出几个较为显著且有分析意义的图片。此外,在某些细节上,也略微花费了一些时间,比如在颜色的选择上、坐标尺度的调整上、字体大小的调整上、knit-HTML文件导出等,不过这些都已经通过查询bing、CSDN等学习网站,一一加以解决。 2,本项目在了解完各个变量的含义之后,便开始提出问题,其中一个比较感兴趣的问题就是,会有哪些因素影响到贷款的利息高低。通过本项目的分析,最终成功的找到了显著影响利息高低的2个因素:ProsperScore和IncomeRange,且成功将3者进行绘图和分析。 3,本项目仅考察了部分变量,得出的结论仅可作为初步参考,且存在的部分猜测和推理,并未进行严格的逻辑证明。此外,针对某些感兴趣的问题,应该还有更好的答案,比如影响贷款利息高低的因素应该不仅限于本项目中分析的2个因素,还应该有其他因素对其影响,后期若能进一步挖掘其他变量的影响作用,应该可以建立起具有优良预测功能的模型。